LLM の KV cache

query$ Q今生成しようとしてゐる token

これまでに現れた全 token

key 行列$ K自分はどんな情報を持ってゐるか

value 行列$ V具體的な中身

$ {\rm Attention}(Q,K,V)={\rm softmax}\left(\frac{QK^\top}{\sqrt d}\right)V

LLM の KV cacheが無いと、token を生成する度に$ K,Vを再計算する$ O(L^2)

LLM の KV cacheを使ふと、$ O(L)

prefill

user の入力 prompt から$ K_0,V_0vector を計算する

各層每に memory に cache する

decoding

新しい token$ x_tから$ K_t,V_tvector のみを計算し、既存の cache に追加する

memory 節約手法